5  Análisis de textos

5.1 Insumos de la encuesta

El insumo de estos análisis es una serie de preguntas de respuesta abierta. Sin embargo, dado el formato específico de la pregunta se trata de un dato que, si bien no puede considerarse estructurado, se aleja un poco de otros ejemplos de datos no estructurados como los textos provenientes de entrevistas en profundidad, de canciones o de discursos presidenciales.

pregunta_texto

En este caso, como puede observarse en la imagen se trata de 3 palabras por cada encuestado. Expresado en el léxico de una matriz de datos (o base de casos x variables), se trata de 3 columnas por cada fila.

5.2 Preparación de los datos

Para facilitar el siguiente análisis lo que primero debemos realizar es un “alargamiento” de la base de datos original para pasar a tener una sola columna y más filas que, en principio, se repetirían 3 veces.

Luego, sigue el proceso de limpieza de las palabras. Se pasa todo a minúscula, se eliminan los puntos, los números y toda palabra vacía de significado como los pronombres, artículos y preposiciones. Finalmente se hace un proceso en donde se intenta llevar todas las palabras a su raíz (stemming) para así poder interpretar como una misma palabra a palabras que, por ejemplo, cambian el género (gato, gata) o el número (gato, gatos). Ahora sí, ya estamos en mejores condiciones de empezar nuestro análisis del texto.

5.3 Primeras aproximaciones

Dado que los pasos anteriores nos permitieron estructurar bastante los datos, ahora es más fácil realizar los típicos análisis que se realizan a los datos estructurados. Para comenzar vamos a realizar una simple tabla de conteo, con su respectivo porcentaje, y luego vamos a realizar un gráfico de barras. Finalmente realizaremos una nube de palabras.

Frecuencia y porcentajes de palabras
Palabra Cantidad Porcentaje
investigación 58 19.21%
encuesta 34 11.26%
método 31 10.26%
estadística 26 8.61%
numeros 22 7.28%
datos 14 4.64%
cantidad 13 4.30%
conocimiento 10 3.31%
porcentaje 9 2.98%
técnica 8 2.65%
análisis 6 1.99%
contar 5 1.66%
herramientas 5 1.66%
camino 4 1.32%
científico 4 1.32%
difícil 4 1.32%
investigar 4 1.32%
proyecto 4 1.32%
conocer 3 0.99%
información 3 0.99%
medición 3 0.99%
modos 3 0.99%
objetivos 3 0.99%
practica 3 0.99%
procedimiento 3 0.99%
proyectos 3 0.99%
trabajosamente 3 0.99%
cifras 2 0.66%
cuestionarios 2 0.66%
estudios 2 0.66%
personas 2 0.66%
planificación 2 0.66%
pregunta 2 0.66%
promedios 2 0.66%

Como en muchas otras situaciones, lo que se puede mostrar en forma de tabla también se puede graficar con algún tipo de gráfico. En este caso haremos un gráfico de barras con los datos anteriores.

5.4 Nube de palabras

La nube de palabras es una técnica de visualización que funciona bien cuando los insumos son palabras y estan presentan una gran heterogeneidad en los valores de sus frecuencias.

5.5 Análisis bivariado de palabras

Frecuencia y porcentajes de palabras según cantidad de materias aprobadas
Palabra Cantidad de materias aprobadas
Hasta 15 Más de 15
investigación 20.00% 20.00%
encuesta 12.22% 10.48%
método 11.11% 10.48%
estadística 7.78% 11.43%
numeros 7.78% 6.67%
cantidad 4.44% 4.76%
datos 3.33% 7.62%
técnica 3.89% NA
conocimiento 2.78% 4.76%
porcentaje 2.78% 3.81%
contar 2.22% NA
investigar 2.22% NA
científico NA 3.81%
análisis 1.67% 2.86%
camino 1.67% NA
conocer 1.67% NA
difícil 1.67% NA
proyectos 1.67% NA
herramientas 1.11% 2.86%
trabajosamente NA 2.86%
información 1.11% NA
medición 1.11% NA
modos 1.11% NA
personas 1.11% NA
planificación 1.11% NA
pregunta 1.11% NA
procedimiento 1.11% NA
promedios 1.11% NA
proyecto 1.11% 1.90%
estudios NA 1.90%
objetivos NA 1.90%
practica NA 1.90%